class: right, middle, inverse, titular background-image: url(data:image/png;base64,#img/title-background.png) background-size: contain background-position: -20% 0% <img src="data:image/png;base64,#img/fhwn-logo.png" width="125px"/> ## <div class="title"> Cross-Demographic Benchmarking of Commercial Services For Automated Facial Analysis Using Unconstrained Images </div> ## ### Till Bieg ### August 2022 [
bit.ly/face-benchmark](https://bit.ly/face-benchmark) --- class: center, middle # Überblick ---- <p style = "color: #4cbfac; line-height: 200%; size: 12;"> Theoretischer Hintergrund <br> Forschungsfragen <br> Experiment 1 (Methode, Ergebnisse) <br> Experiment 2 (Methode, Ergebnisse) <br> Experiment 3 (Methode, Ergebnisse) <br> Einordnung der Ergebnisse, Limitationen und Implikationen <br> Schlussfolgerung </p> --- class: inverse, middle, center
# Theoretischer Hintergrund ---- --- ##
Theoretischer Hintergrund - Modelle zur Analyse menschlicher Gesichter ---- .pull-left[ * Technischer Fortschritt führt zu immer breiterer Anwendung von computergestützten <mark class="turquoise">Modellen, die menschliche Gesichter in Bildern und Videos analysieren </mark> ("Automated Facial Analysis") [1; 2; 3] * <mark class="turquoise">Anwendungsbereiche</mark>: Strafverfolgung, Authentifizierung, etc. * Unternehmen haben begonnen, diese Modelle als <mark class="turquoise">kommerzielle Services</mark> anzubieten [4; 5; 6; 7] * Studien haben gezeigt, dass diese Modelle <mark class="turquoise"> demografische Biases</mark> aufweisen [4; 8; 9] ➔ Potentielle Folgen: Falsche Einzelentscheidungen bis hin zu systematischer Diskriminierung ] .pull-right[ <u>*wired.com/story/hidden-role-facial-recognition-tech-arrests </u> (7. März 2022)* <p>  ] --- ##
Theoretischer Hintergrund - Demografische Biases in Machine Learning ---- * Demografische Dimensionen: z.B. <mark class="turquoise">Gender, Race, Age</mark> * Fairness im Sinne von <mark class="turquoise">Classification Parity</mark>: Leistung eines Modells soll bezüglich Gruppen, die durch bestimmte "Protected Attributes" (z.B. Gender, Race, Age) definiert sind, gleich bzw. ähnlich sein [10] * <mark class="turquoise">Beispiel</mark>: Bei einem Modell zur Face Verification sollte die Fehlerrate bei African Females auf ähnlichem Niveau sein wie bei Caucasian Males * <mark class="turquoise">Demografischer Bias</mark> liegt vor, wenn Kriterium der Classification Parity in Bezug auf demgroafische Dimensionen verletzt ist * Fokus auf demografische Biases in kommerziellen Services wichtig, da es sich um <mark class="turquoise">"Black Boxes"</mark> handelt --- ##
Theoretischer Hintergrund - Demographische Biases in Face Verification ---- .pull-left[ * <mark class="turquoise">Face Verification</mark>: Algorithmus, der versucht zu erkennen, ob zwei Bilder eines Gesichts zu derselben Person gehören * Hohe Relevanz und viele Anwendungsfälle (Strafverfolgung, Authentifzierung, etc.) [11; 12] ] .pull-right[  ] --- ##
Theoretischer Hintergrund - Demographische Biases in Face Verification ---- * Studien haben bereits <mark class="turquoise">demograpische Biases</mark> in (kommerzieller) Face Verification gefunden [13; 8; 9; 14; 15; 16; 17], z.B.: * Modelle sind am genauesten bei Males, Caucasians oder Personen mittleren Alters * Modellgenauigkeit ist schlechter bei African und Asian Females oder bei jungen Menschen * Trotz zahlreicher Studien: <mark class="turquoise">Forschungslücken</mark> * Benchmarks kommerzieller Services für Face Verification bei "Unconstrained Images" unter Berücksichtigung von Gender, Race und Age * Vergleich kommerzieller Service für Face Verification bei "Unconstrained Images" über die Zeit --- ##
Theoretischer Hintergrund - Demographische Biases in Face-Based Age Inference ---- .pull-left[ * <mark class="turquoise">Face-Based Age Inference</mark>: Schätzung des Alters einer Person auf der Grundlage eines Bildes ihres Gesichts [18] * Viele aktuelle Forschungsarbeiten beschäftigen sich mit der Verbeserung von Face-Based Age Inference [19; 20; 21; 22; 23; 24; 25; 26] * Wenige Studien haben sich mit demographischen Biases in Face-Based Age Inference beschäftigt [20; 21] * Insbesondere <mark class="turquoise">Studien zu demographischen Biases in kommerziellen Services</mark> sind selten (erstaunlich, weil Face-Based Gender Inference große öffentliche Aufmerksamkeit erhalten hat [4; 27]) ] .pull-right[  ] --- class: inverse, middle, center
# Forschungsfragen ---- --- ##
Forschungsfragen ---- RQ 1: Wie unterscheidet sich die Performance kommerzieller Services für Face Verification unter Verwendung von Unconstrained Images hinsichtlich demografischer Gruppen (Gender, Race und Age)? RQ 2: Wie unterscheiden sich kommerzielle Services für Face Verification hinsichtlich ihrer Performance unter Verwendung von Unconstrained Images? RQ 3: Wie hat sich die Performance kommerzieller Services für Face Verification unter Verwendung von Unconstrained Images im Vergleich zu früheren Benchmarks verändert? RQ 4: Wie unterscheidet sich die Performance kommerzieller Services für Face-Based Age Inference unter Verwendung von Unconstrained Images hinsichtlich demografischer Gruppen (Gender, Race und Age)? RQ 5: Wie unterscheiden sich kommerzielle Services für Face-Based Age Inference hinsichtlich ihrer Performance unter Verwendung von Unconstrained Images? --- class: inverse, middle, center
# Experiment 1 (Methode, Ergebnisse) ---- --- ##
Experiment 1 - Methode ---- .pull-left[ * Benchmark kommerzieller Face Verification Services (Amazon, Megvii, Microsoft) unter Verwendung von Unconstrained Images (<mark class="turquoise">RQ 1, RQ 2</mark>) * Berücksichtigung von <mark class="turquoise">Gender</mark> (Female, Male), <mark class="turquoise">Race</mark> (African, Asian, Caucasian, Indian) und <mark class="turquoise">Age</mark> (<30, 30-39, 40-49, 50+)</mark> * Verwendeter Datensatz: <mark class="turquoise">Balanced Faces in the Wild (BFW) [14]</mark> * 20,000 Unconstrained Images von 800 Individuen balanciert nach Gender und Race und entsprechende Labels * <mark class="turquoise">Keine Labels für Age</mark> ] .pull-left[ .center[  ] ] --- ##
Experiment 1 - Methode ---- * <mark class="turquoise">Labelling von Age</mark> für alle 20,000 Bilder im Datensatz nach der Methode von Kärkkäinen und Joo [21] * <mark class="turquoise">Auswahl von Bildpaaren</mark> * Randomisiert unter Berücksichtigung von Cosine Similarities zwischen MobileNetV2-Embeddings [28] * Nur Paare innerhalb der gleichen Subgruppe (gleiches Gender, Race und Age) * 150 Genuine Pairs und 150 Imposter Pairs pro Subgruppe * Limitation: Bestimmte Altersgruppen stark unterrepräsentiert im Datensatz, daher in einigen Fälle keine 150 bzw. 300 Paare pro Gruppe --- ##
Experiment 1 - Methode ---- * <mark class="turquoise">Vergleichsgrößen</mark>: * False Match Rate (FMR) [8]: `\(FMR(T) = \frac{1}{M} \sum_{i=1}^{M} H(u_i - T)\)` * False Non-Match Rate (FNMR) [8]: `\(FNMR(T) = 1 - \frac{1}{N} \sum_{i=1}^{N} H(v_i - T)\)` * Equal Error Rate (EER): Wenn Decision Threshold so gewählt wird, dass die FMR gleich der FNMR ist, wird der gemeinsame Wert von FMR und FNMR als EER bezeichnet [29] * Analyse von FMRs und FNMRs auf Basis <mark class="turquoise">variierender Thresholds</mark> * Implementierung des Benchmarks, Auswertung und Visualisierung mit Python 3.8.8 [30] bzw. R 4.1.0 [31] --- class: middle ##
Experiment 1 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-1-1.png" width="90%" /> --- ##
Experiment 1 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-2-1.png" width="80%" /> --- ##
Experiment 1 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-3-1.png" width="90%" /> --- ##
Experiment 1 - Ergebnisse ---- * Nach <mark class="turquoise">Services</mark>: Niedrigste Fehlerraten bei Amazon, höchste Fehlerraten bei Megvii * Nach <mark class="turquoise">demografischen Gruppen</mark>: * Niedrigere Fehlerraten bei Females * Niedrigere Fehlerraten bei Caucasians, höhere bei Asians und Africans (je nach Service) * Höchste Fehlerraten bei Personen unter 30 Jahren * <mark class="turquoise">Intersektional</mark>: Niedrigste Fehlerraten bei älteren Causasian Males, höchste (u.a.) bei jüngeren Asian Females und älteren African Males * <mark class="turquoise">Biases höher in FMRs</mark> (z.B. 42 Prozentpunkte bei Amazon) im Vergleich zu FNMRs (12 Prozentpunkte bei Amazon) * Höhe der Unterschiede zwischen Gruppen <mark class="turquoise">hängt stark vom gewählten Threshold</mark> ab --- class: inverse, middle, center
# Experiment 2 (Methode, Ergebnisse) --- ##
Experiment 2 - Methode ---- .pull-left[ * <mark class="turquoise">Replikation</mark> des Benchmarks von Wang et al. [9] - einziger Benchmark von kommerziellen Services (Amazon, Megvii, Micosoft) zur Face Verification hinsichtlich demografischen Biases (<mark class="turquoise">RQ 3</mark>) * Verwendeter Datensatz: <mark class="turquoise">Racial Faces in the Wild (RFW) </mark> [9] - vier Gruppen nach <mark class="turquoise">Race</mark> (African, Asian, Caucasian, Indian) * <mark class="turquoise">Replikation der Bildpaare</mark> nach Wang et al. [9] mit 3,000 genuinen Paaren und 3,000 Imposter-Paaren pro Gruppe (24,000 Bilder insgesamt) * Implementierung des Benchmarks, Auswertung und Visualisierung mit Python 3.8.8 [30] bzw. R 4.1.0 [31] ] .pull-right[ * <mark class="turquoise">Vergleichsgröße</mark>: `\(Accuracy =\frac{TP + TN}{TP + TN + FP + FN}\)` .center[  ] ] --- ##
Experiment 2 - Ergebnisse ---- .pull-left[ * Im Vergleich zu Wang et al. [9] <mark class="turquoise">Verbesserung der Perfromance bei Amazon und Microsoft</mark> um bis zu 23,1 Prozentpunkte (Accuracy von 98% oder mehr für alle demgrafischen Gruppen) * Im Vergleich zur Studie von Wang et al. [9] hat sich die Genauigkeit von <mark class="turquoise">Megvii nicht wesentlich verbessert</mark> * Die Performance aller Services ist <mark class="turquoise">am besten für Caucasians</mark>. Amazon und Microsoft erzielen die schlechtesten Ergebnisse für Asians und Megvii für Africans * Auch <mark class="turquoise">Biases</mark> für Amazon und Microsoft erscheinen <mark class="turquoise">reduziert</mark> (größter Unterschied zwischen Gruppen: 1,0 Prozentpunkte) ] .pull-right[ <!-- --> ] --- class: inverse, middle, center
# Experiment 3 (Methode, Ergebnisse) ---- --- ##
Experiment 3 - Methode ---- .pull-left[ * <mark class="turquoise">Benchmark kommerzieller Services für Face-Based Age Inference </mark> (Amazon, Megvii, Microsoft) unter Verwendung von Unconstrained Images (RQ 4, RQ 5) * Berücksichtigung von <mark class="turquoise">Gender</mark> (Female, Male), <mark class="turquoise">Race</mark> (Asian, African, Caucasian, Indian) und <mark class="turquoise">Age</mark> (0-9, 10-19, 20-29, 30-39, 40-49, 50-59, 60-69) * Verwendeter Datensatz: <mark class="turquoise">Fairface</mark> [20; 21]: 108,000 Unconstrained Images mit Labels für Gender, Race und Age * <mark class="turquoise">Randomisierte Auswahl von 175 Bildern pro intersektionaler Subgruppe</mark> * Implementierung des Benchmarks, Auswertung und Visualisierung mit Python 3.8.8 [30] bzw. R 4.1.0 [31] ] .pull-right[ * <mark class="turquoise">Vergleichsgröße</mark>: Mean Absolute Error (MAE) [32]: `\(MAE = \frac{1}{M} \sum_{i=1}^{M} |(\hat{y_i} - y_i)\)` .center[  ] ] --- class: middle ##
Experiment 3 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-5-1.png" width="80%" /> --- ##
Experiment 3 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-6-1.png" width="68%" /> --- ##
Experiment 3 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-7-1.png" width="70%" /> --- ##
Experiment 3 - Ergebnisse ---- * Nach <mark class="turquoise">Services</mark>: Konsistent niedrigster MAE für Microsoft, höchster für Megvii * Nach <mark class="turquoise">demografischen Gruppen</mark>: * Niedrigerer MAE bei Males * Beste Performance für Amazon bei Causasians, Microsoft bei Africans, Megvii bei Asians * MAEs am niedrigsten bei älteren Menschen (Megvii) oder bei besonders jungen Altersgruppen (Amazon, Microsoft) * Intersektional: in Altersgruppen, in denen Amazon und Microsoft schlecht abschneiden (z. B. 60-69 Jahre), sind MAEs systematisch am niedrigsten für Caucasian Males. Ähnlich bei Megvii: MAEs in jungen Altersgruppen besonders niedrig für Asian Males * Größte Unterschiede zwischen dem. Gruppen bei Amazon: 403% bzw. 13.78 MAE-Einheiten [4.55 (Asian Females 20-29); 18.33 (African Females 60-69)] * Muster demographischer Biases tendenziell heterogen zwischen Services --- class: inverse, middle, center
# Einordnung der Ergebnisse, Limitationen und Implikationen ---- --- ##
Einordnung der Ergebnisse ---- * Allgemein: Ergebnisse sind eine <mark class="turquoise">Momentaufnahme</mark> und die Vergleichbarkeit mit anderen Studien ist nicht in jedem Fall vollends gegeben (spezifische Analyse und rasante Weiterentwicklung des Felds) * <mark class="turquoise">Face Verification</mark> * Ergebnisse zu Age und Race decken sich überwiegend mit anderen Studien (z.B. [9; 8; 15]) * Ergebnisse zu Gender im Gegensatz zu anderen Studien (mehrere Erklärungen denkbar) * Replikation von [9] zeigt, dass sich kommerzielle Services (von Microsoft und Amazon) jedenfalls verbessert haben * Ausmaß von Gruppenunterschieden tendeziell niedriger im Vergleich zu anderen Studien [8] * <mark class="turquoise">Face-Based Age Inference</mark> * Wenige Ergebnisse zu demografischen Biases aus vorherigen Studien * Größere Unterschiede zwischen verschiedenen Altersgruppen im Vergleich zu Gruppen nach Gender und Race konsistent zu [20] * "Other-race"-Effekt [33] --- ##
Limitationen ---- * Stichprobengröße der intersektionalen Subgruppen (Repräsentativität, Ausmaß der Schwankungsbreite, Untersuchung niedriger Fehlerlevel) * Berücksichtigung nur bestimmter demografischer Dimensionen und Gruppen (z.B. manche Altersgruppen nicht oder kaum reprärsentiert) * In Experiment 2 ausgehend von Replikation nur Accuracy als Vergleichsgröße berücksichtigt * Weitere Einflussfaktoren wie Schärfe oder Belichtung lagen nicht im Fokus der Arbeit * Analyse von Detection Errors lag nicht im Fokus der Arbeit * Face Verification versus Face Search --- class: inverse, middle, center
# Schlussfolgerung ---- --- ##
Schlussfolgerung ---- * <mark class="turquoise">Verbesserung kommerzieller Services</mark> für Face Verification über die Zeit - aber systematische <mark class="turquoise">demographische Biases immer noch vorhanden</mark> (z.B. bessere Performance bei Caucasians) * Auch eindeutige <mark class="turquoise">Unterschiede zwischen demografischen Gruppen bei Face-Based Age Inference</mark>, die auf Biases in den Trainingsdaten hinweisen * Trotz Verbesserungen der Services ist ein <mark class="turquoise">reflektierter Einsatz im Bewusstsein über deren Schwächen und Limitationen gefordert</mark> * Benchmarks von (kommerziellen) Machine Learning-Modellen bleiben relevant, um einen <mark class="turquoise">fairen, transparenten Einsatz dieser Technologien</mark> langfristig sicherzustellen - Ergebnisse der Arbeit können hierbei als <mark class="turquoise">Referenzpunkt</mark> dienen --- # Literatur [1] J. Lynch. "Face off: Law enforcement use of face recognition technology". In: _Electronic Frontier Foundation_ (2019). [2] A. J. Shepley. "Deep Learning For Face Recognition: A Critical Analysis". In: _arXiv preprint arXiv:1907.12739_ (2019). [3] A. Norval and E. Prasopoulou. "Public faces? A critical exploration of the diffusion of face recognition technologies in online social networks". In: _New Media & Society_ 19.4 (2017), pp. 637-654. [4] J. Buolamwini and T. Gebru. "Gender shades: Intersectional accuracy disparities in commercial gender classification". In: _Conference on Fairness, Accountability and Transparency_. 2018, pp. 77-91. [5] Amazon. _Amazon Rekognition_. <URL: https://aws.amazon.com/de/rekognition>. Last accessed 2021-07-15. 2021. [6] Face++. _Face Comparing_. <URL: https://faceplusplus.com/face-comparing>. Last accessed 2021-07-15. 2021. [7] Microsoft. _Face - An AI service that analyzes faces in images_. <URL: https://azure.microsoft.com/en-us/services/cognitive-services/face>. Last accessed 2021-07-15. 2021. --- # Literatur [8] P. Grother, M. Ngan, and K. Hanaoka. _Face Recognition Vendor Test (FVRT): Part 3, Demographic Effects_. National Institute of Standards and Technology, 2019. [9] M. Wang, W. Deng, J. Hu, et al. "Racial Faces in the Wild: Reducing racial bias by information maximization adaptation network". In: _Proceedings of the IEEE International Conference on Computer Vision_. 2019, pp. 692-702. [10] S. Corbett-Davies and S. Goel. "The measure and mismeasure of fairness: A critical review of fair machine learning". In: _arXiv preprint arXiv:1808.00023_ (2018). [11] Interpol. _Facial Recognition_. <URL: https://www.interpol.int/How-we-work/Forensics/Facial-Recognition>. Last accessed 2021-08-03. 2021. [12] New York Times. _Your face is, or will be, your boarding pass_. <URL: https://www.nytimes.com/2021/12/07/travel/biometrics-airports-security.html>. Last accessed 2021-12-28. 2021. [13] I. Hupont and C. Fernández. "DemogPairs: Quantifying the impact of demographic imbalance in deep face recognition". In: _IEEE International Conference on Automatic Face & Gesture Recognition_. 2019, pp. 1-7. --- # Literatur [14] J. P. Robinson, G. Livitz, Y. Henon, et al. "Face recognition: too bias, or not too bias?" In: _Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops_. 2020, pp. 0-1. [15] H. El Khiyari and H. Wechsler. "Face verification subject to varying (age, ethnicity, and gender) demographics using deep learning". In: _Journal of Biometrics and Biostatistics_ 7.323 (2016), p. 11. [16] J. G. Cavazos, P. J. Phillips, C. D. Castillo, et al. "Accuracy comparison across face recognition algorithms: Where are we on measuring race bias?" In: _IEEE transactions on biometrics, behavior, and identity science_ 3.1 (2020), pp. 101-111. [17] K. Krishnapriya, K. Vangara, M. C. King, et al. "Characterizing the Variability in Face Recognition Accuracy Relative to Race". In: _arXiv e-prints_ (2019), pp. arXiv-1904. [18] Y. Deng, S. Teng, L. Fei, et al. "A Multifeature Learning and Fusion Network for Facial Age Estimation". In: _Sensors_ 21.13 (2021), p. 4597. [19] M. Akhand, M. I. Sayim, S. Roy, et al. "Human Age Prediction from Facial Image Using Transfer Learning in Deep Convolutional Neural Networks". In: _Proceedings of International Joint Conference on Computational Intelligence_. 2020, pp. 217-229. --- # Literatur [20] K. Karkkainen and J. Joo. "FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age". In: _arXiv preprint arXiv:1908.04913_ (2019). [21] K. Karkkainen and J. Joo. "FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and Mitigation". In: _Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision_. 2021, pp. 1548-1558. [22] O. Guehairia, A. Ouamane, F. Dornaika, et al. "Feature fusion via Deep Random Forest for facial age estimation". In: _Neural Networks_ 130 (2020), pp. 238-252. [23] S. T. Rahman, A. Arefeen, S. S. Mridul, et al. "Human Age and Gender Estimation using Facial Image Processing". In: _IEEE Region 10 Symposium_. 2020, pp. 1001-1005. [24] S. E. Bekhouche, F. Dornaika, A. Benlamoudi, et al. "A comparative study of human facial age estimation: Handcrafted features vs. deep features". In: _Multimedia Tools and Applications_ 79.35 (2020), pp. 26605-26622. [25] S. Gong, X. Liu, and A. K. Jain. "Jointly de-biasing face recognition and demographic attribute estimation". In: _European Conference on Computer Vision_. 2020, pp. 330-347. --- # Literatur [26] O. Agbo-Ajala and S. Viriri. "Face-based age and gender classification using deep learning model". In: _"Pacific-Rim Symposium on Image and Video Technology"_. 2019, pp. 125-137. [27] I. D. Raji and J. Buolamwini. "Actionable auditing: Investigating the impact of publicly naming biased performance results of commercial AI products". In: _Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society_. 2019, pp. 429-435. [28] M. Sandler, A. Howard, M. Zhu, et al. "MobileNetV2: Inverted residuals and linear bottlenecks". In: _Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition_. 2018, pp. 4510-4520. [29] D. Scheuermann, S. Schwiderski-Grosche, and B. Struif. _Usability of biometrics in relation to electronic signatures_. GMD-Forschungszentrum Informationstechnik Sankt Augustin, 2000. [30] Python Software Foundation. _Python Language Reference, version 3.8_. <URL: http://www.python.org>. Last accessed 2021-06-30. 2021. [31] R Core Team. _R: A Language and Environment for Statistical Computing_. R Foundation for Statistical Computing. Vienna, Austria, 2021. --- # Literatur [32] A. Géron. _Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems_. O'Reilly Media, 2019. [33] P. J. Phillips, F. Jiang, A. Narvekar, et al. "An other-race effect for face recognition algorithms". In: _ACM Transactions on Applied Perception_ 8.2 (2011), pp. 1-11. --- # Anhang: Beispielbilder (BFW, RFW, Fairface) .center[    ]